Aumentar la atención con memoria de decaimiento exponencial mejora la esparcidad KV consciente de la consulta
Atención eficiente con memoria de decaimiento exponencial para esparcidad KV consciente de consulta, reduciendo memoria y acelerando inferencia en modelos.